Muon²: Potenciando Muon con precondicionamiento adaptativo de segundo momento
Muon² reduce un 40% las iteraciones Newton-Schulz y ahorra hasta 25% del tiempo de entrenamiento. Descubre cómo.
Muon² reduce un 40% las iteraciones Newton-Schulz y ahorra hasta 25% del tiempo de entrenamiento. Descubre cómo.